其實前面還有一篇Production ML Systems,這篇的主要概念就是我們之前的23天都只是Machine learning的5%工作量(下圖中最中間最小的區塊),剩下的95%幾乎都在處理資料、監控資料、還有資源管理跟設計分析工具。
但我們也不用從頭開始刻出每個component,TensorFlow有很多可以應用的,而且也有很多既有的服務已經可以幫助我們解決部份的問題(像是Hadoop、Spark等等)。
Offline訓練,訓練一次,然後一直用他去predict,建立簡單、測試方便。也因此我們可以一直tune到我們覺得完美為止。
對於不會頻繁變化的資料很適合,但不代表用了他就不用再去關心資料的樣貌,你還是要花心思去注意資料的細微改變,像文中說的海平面的例子。
Online訓練,資料會持續灌入model,也必須持續update model。也因此要持續觀察input資料,以免因小失大、以偏概全。
很難用去年的資料去預測明年的事情。或者只用兩個月的資料量去預測買花的行為,剛開始可能會很準,但隨著特殊節日越來越近,可能會造成難以想像的錯誤。
如同課後問答題問的:
OK,今天只有這樣。明天會再介紹一種Static/Dynamic差異喔。